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® Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie 

Vorrichtung und Verfahren zum Codieren eines Audiosignals 
(57) Ein Verfahren zum Erfassen eines Anschlags in einem 

zeitdiskreten Audiosignal wird vollstandig im Zeitbereich 

durchgefuhrt und umfaBt den Schritt des Segmentierens 

des zeitdiskreten Audiosignals, um aufeinanderfolgende 

Segmente gleicher Lange mit ungefilterten zeitdiskreten 

Audiosignalen zu erzeugen. Das zeitdiskrete Audiosignal 

in einem aktuellen Segment wird anschliefcend gefiltert. 

Nun kann entweder die Energie des gefilterten zeitdiskre- 
ten Audiosignals in dem aktuellen Segment mit der Ener- 
gie des gefilterten zeitdiskreten Audiosignals in einem 

vorhergehenden Segment verglichen werden, oder es 

kann ein aktuelles Verhaltnis zwischen der Energie des 

gefilterten zeitdiskreten Audiosignals in dem aktuellen 

Segment und der Energie des ungefilterten zeitdiskreten 

Audiosignals in dem aktuellen Segment gebildet werden 

und dieses aktuelle Verhaltnis mit einem vorhergehenden 

entsprechenden Verhaltnis verglichen werden. Auf der 
• Grundlage des einen Vergleichs und/oder des anderen 

Vergleichs wird erfafct, ob in dem zeitdiskreten Audiosi- 
gnal ein Anschlag vorhanden ist. 
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Beschreibung 

Die vorlicgcnde lirhndung bezichl sich auf die Codierung von Audiosignalon und insbesonderc auf das Codieren von 
Audiosignalcn. die Anschlagc aufweisen, d. h. die iransieni sind, 
5 Bei der gehorangcpattien Codierung zur Daicnredukiion von Audiosignalcn erfolgl die Codierung der Audiosignale 
/.unieisi im Frequenzbereich. Dies bcdcuict.daB Ausgangswerie einer Zeii-lTcqucnx-Transfoniialion quaniisicn werden 
und anschlieltend in eineh Bitsirom geschricben werden, weicher gespeichen oder ubenragen werden kann. Ein psyeho- 
akusiisches Model I, das in deni Codiercr implemenlicri isl, berechnei cine monicnianc Milhor- oder Maskierungs- 
schwclic und sieucri die Quaniisierung der Ausgangswerie der Zeil-Frcqucnz-Transfonnation so, dati der Codierungs- 

K) fehler, d. h. der Quaniisierungsfehler, spekiral gcfcmit wird und umcr dicser Schwcllc liegi. damil derselbe unhorbar isl. 
Durch diese MaBnahnic isl der Codierungsfchler jedoch zeillich iiber der Zahl von Abiasiwerten konsiant, weiche der 
Lange des Trans fonnaiionsfensiers cntspricht. Die Milhor- oder Maskicrungsschwclle ist in M. Zollner, E. Zwicker. 
Elektroakusiik. Springer- Verlag, Berlin, Heidelberg, New York, 3. Auflage, 1903 dargestelil. 
Uni die Berechnung der Milhorschwcllc im Frequenzbereich moglichsi cxakt durchfuhren zu konnen, isl eine hohe 

15 Frequenzauflosung der Zcii-Frequenz-Transformaiion erforderlich. Bei prakiischen Anwendungsfallen konnen typischc 
Transformationslangen im Bereich von 20 bis 40 ms auftrelen. Werden nun iransiente Audiosignalcn, d. h. Audiosignale 
mil Anschlagen, verarbeiiel. so verieilt sich je nach zeitlicher Position des Anschlags im Trans formal ionst ens rer das 
Quantisierungsgcrausch zeillich auch "vor" das Maximum der Signalhullkurve. Aufgrund der mensehlichen Wahmch- 
nuing konnen diese sogcnannien "Vorcchos" horbar werden. wenn sie niehr als 2 ms vor dem eigcnt.iich.cn Anschlag des 

20 zu codierenden Audiosignals einsetzen. Dies isl der Grund, daB bei vielen Transformationscodierern die Transformaii- 
onslange der Zeil- Frequenz- Transformation auf kurzere Fensier, d. h. kurzere Blocklangen. mil. ciner zcillichcn Lange 
von typischcrweise 5 bis 8 ms mil einer daniil hdhcren zeitlichen Aufiosung umschalibar isL Dies ermoglicht cine zeil- 
lich feinere Fonnung des Quantisierungsgcrausches und damil eine Unterdruckung dieser Vbrechos, wodurch dieselben 
nichi mehr oder nur sehr wenig horbar sind, wenn das codicrlen Signal wieder in einem Decodierer decodieri wird. 

25 Es werden also Vorrichtungen zum Erfassen eines Anschlags in einem Audiosignal verwendcu uni die Transformati- 
onal ange der Zeii-Frequenz-Transformation gehorrichlig an die Eigenschaftcn und insbesonderc an die iransienlen Ei- 
gcnschaficn des Audiosignals anzupasscn. 

Fig. 3 zeigi cincn bekanntcn Transforms ion scodierer 100, der allgemein nach deni Standard MPEG 1-2 Layer3 (ISO/ 
IEC IS 3 1 172-3. Coding of Moving Pictures and Associated Audio. Pari 3: Audio) aufgebaut isl. Ein Zeitsignal gelangt 

30 iiber einen Eingang 102 in einen Block Zeil/Frequenz-Transformation 104. Das ZeitsignaJ am Eingang 102, das typi- 
schcrweise als zcitdiskreics Audiosignal vorliegt, das mittcls einer Abiasieinrichiung (nichi gezeigt) aus einem zeitkon- 
tinuierlichen Zeitsignal crhalten wurde, wird durch den Block Zeil-Frequenz -Transforhiation 104 in aufeinanderfol- 
gende Blbcke von Speklralwerten transforniiert, weiche in einen Block Quanlisierung/Codierung 106 eingegeben wer- 
den, wobei das Ausgangssignal des Blocks Quanlisierung/Codierung quainisierle und Rcdundanz-codierle digit ale Si- 

35 gnale sind. weiche in einem Block Bitstromfonnatierung 108 zusammen mil notigen Seiteninfonnalionen zu einem Bii- 
strom gebildct werden, der am Ausgang der Biistromfomiatierungseinrichiung 108 anliegt und gespeicheri oder ubenra- 
gen werden kann. 

In dem Block Zeil/Frequenz-Transformation 104 findei eine Fensterung des zeildiskrelen Audiosignals am Eingang 
102 statu urn auleinanderfolgendc Blocke mil. zeildiskrelen Audiosignalen, weiche nun gefenstert. sind, zu erzeugen. Die 

40 Blocke der gefensterten zeildiskrelen Audiosignale werden anschlieGend, wie cs bereils crwahnt wurde, in den Frequenz- 
bereich iransformicrl. Wie es aus der Nachrichteniechnik bekannt ist. isl die Frequenzauflosung der Zeit-Frcquenz- 
Transfonnaiion durch die Lange eines Blocks vorgegeben. Uni fur zeildiskreic Audiosignale mit Anschlagen, d. h. mil 
transienien Anicilcn. eine ausreichendc zeilliche Aufiosung zu erreichen, ist es notwendig, da!3 zur Codierung derselbcn 
zur Vermeidung der Vorechos die Fensicrlange und damil die zeilliche Lange eines Blocks zeildiskreier Ablasiwerle ver- 

45 kurzt wird. 

Der in Fig. 3 gezeigic bekannie Codierer fuhrt folgendes Verfahren zum Erfassen von Anschlagen in einem Audiosi- 
gnal durch. Aus dem Block Zeil/Frequenz-Transfonmation 104 werden die Spekiral komponenten in einen Block psycho- 
akuslisches Model! 110 eingespcist, wobei der Block 110 zum einen, wie es bereils eingangs erwahni wurde, die Mas- 
kierungs- oder Milhorschwcllc fur den Block Quanlisierung/Codierung 106 emiittell, sowie zum anderen aus deni vor- 
50 liegenden Signalencrgieverlauf des zeildiskrelen Audiosignals im Frequenzbereich und dem enechncien Energieverlauf 
der Mit horschwclle einen Schatzwcn fur den Bilbedarf zur Codierung des Spekirums ermitielt. Der geschatzte Bitbedarf, 
der in der Fachwcli auch "Percepiual Eniropy" oder kurz "pe" genannl wird, berechnei sich aus folgendem Zusammen- 
hang: 



55 



In Gleichung (1) bedeuten N die Anzahl der Spektrallinien eines Blocks, e(k) die Signalenergie der Spektralkompo- 
60 nenten oder Spektrallinien k und n(k) die erlaubte Storenergie der Linie k. Hin Anstieg dieser Perceptual Entropy von ei- 
nem Transformaiionsfensier zum nachsten, weicher einen gewissen Schwellcnweru der als "swiich.pc" bezeichnei wird, 
iibersleigl, diem hier als Indikator fur einen Anschlag. Wird der Schwellenwert switch^pc Uberschrilien, so wird in dem 
Block 104 von einem langen Fensier zu einem kurzen Fenster umgeschalieu urn zeillich kurzere Blocke zeildiskreter Au- 
diosignale zu erzeugen, urn die Zeitauflosung des Transforms ionscodiercrs 100 zu erhohen. Die Bercchnungsvorschrift, 
65 die in Gleichung (1) dargelcgt ist, sowie die Festlegung des Schwellenwens swiich^pc werden in einem Block Bit.be- 
darfsschaizung 112 feslgelegt. Das Ergebnis der Bitbedarfsschatzung 112 wird der Zeil/Frequenz-Transformation 104 
sowie dem psychoakustischen Modell 110 milgeteilt, wie es in Fig. 3 angedeutei ist. 
Ein Nachteil dieses bekanntcn Verfahrens bestehl darin, daB die Informaiionen Uber einen mbglichen Anschlag oder 
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"A.iack" ers, naeh dcr Bcrcchnung des psychoakus.ischcn Modells zur Verlugung siehcn. Dies wirk. sich insbesondere 
I-h [ C i " m ?' ' dlc . A 1 blaulslr " k1 "'' Codiom aus. da cine Riiekkopplung dcr Fens.erinfonna.ionen /.„, "1- 
choakusnschen Modcll cr.ol^r, n,uB. Wei.crhin wirken .sich Anderungen an Paran.e.em /.ur Bcrcchnung dcr K 
schwcllc innncr auch aul dcr, Won dcr Pcrcep.ua. Kn.ropv aus. Verandcrungen dicscr Parana vcrandcrn dahcr i„ „ r 
mich die lens.crseuucnz. d. h. die Folgc von langcn und kur/.cn Fcns.cm. dcr Tmnsforn.aHon 

J!F 'wm W i C "u rcn b, ; kann,cn Transfonnaiionscodicrcr 150. dcr in, prinzipicllen Aurbau deni Traasforniaiion- 
SlSn^fV'f dersdbe cbenfalls den Eingang 102 fur zchdiskroe Audiosignalc. S 
dun Block 104 eclcns.cn und in den Frequcnzbere.ch .ranslornuen werden. In den, Block 106 werden die spck.ralen 
S u ^ C ' S m0Ck \ ,M Un ' Cr Beriicksichl * un S Psychoakususchcn Modells 110 quannsicn und ansSSem 

;i:;;ssr onen durch die «««»^-*n«*«in*h,-o l «« *„ C inc n ^ 

H, r D i n r Sr" 1Onl,a,i !' nSC0di r r 1 ? 5 °- der in Fl * 4 8 ezei 8! isl - umctschcido. sich von den, Transfor.na.ionscodierer 100 
dcr n F.g. , gczeig, ,s.. ,„ der F.rlassung von Anschlagcn in den, Audio.signal. Die Krfassung von AnschUiecnTn den, 
Aucho S1 gnal an, hingang 1 02 die in Fig. 4 darges.cll. is,, is, in den, S.andard MPEG 2 AAC (siehc IScE IS 11818 7 
Ss2 ^ Z C0dm « (AAC) > «"***•». Dc-" FFT- Transfonna.ion und De.ektion aus Vnfsik-' 

?h- . a „ tri 1 aMU S Wn Anschla S en ,nillels eines spckiralen Energieansrieg.s durch. Insbesondere I£ 

woben die Langc der IT- J- I ransionnauon der TVansforma.ionslange dcr kurzen Fcnsier en.sprich., AnschlieCend werden 

<t TJerTn - *? S ° gCn rr " Crilkal BandS " bCrCChnCL Die " Crilical Bands " s,cUc " einc F^uenSppferuns 
ttr li A T T 1oakus ' i!ichen Modells en.sprich.. Fin Schwcllwenvergleich der einJSen B^Xrgien 
ubcr ur.es oder n,ehrere zenhch aule.nanderfolgendc Fcns.cr liefer, nun cin Indi/. fur einen Anschlag 
r.l n 2. m £ /U , ^"'J" ■ f" 3 f a, « cslelllen hekannien Verfahren vcrn.cide, das in Fig. 4 darges.elhc bekann.c Ver- 

t°ln n r" „ T PnmapieU unabhang.g von, psychoakustischen Model! vor dessen Berechnune aneewendci 
werden. Das ,n I-.g. 4 dargcs.cll.e Verfahren bendhgtjedoch cine an die Transforn.aUonslange des cSrs S 
FFT-W onuauon /.ur Bcrechnung der Energien in den einzelnen Frequenzgruppen ^.ercrs.angcpablc 
Aus dcr 274 1 743 A 1 is, bcrciLs cin Verfahren zun, Vcrbcsscrn dcr Erkcnnbarkci, eincs Wor.cs in cincn, Snrachvcr- 
schlussclungsgera, ..... medngcr Da.enra.e bekann,. bei den, cin Mustcrsprachsignal in Rah.nen von vo«cec£er Zei 
dauer zerlcg, wird. wobe, jeden, Rahn.en cin PradikHonsfiher /.ugeordnc. wird. dessen KocSemen 2e ^Bcruckt " 
ngung der Anordnung s.abileroder in.s. a biler Mus.ersignale enniuel, sind. Zun. ZweckeT Be" ht.Zne de stb Sn 
dfeTeisi'ut h" Rah, " cn in cine vorbcs,in,n„e Anthfvon EShme See, 

?u dl verb ?h ^ 1° iedCn ' Te,,rah,nen ern,i,,e " und einc An^ah) von Uis.ungsmessungen i„ SSlS« 
u da. verbhebene S.gnal an, Ausgang des Pradik.ionsfil.ers wahrend eines Zei.fcns.crs vonzenomn.en wobei dk eS 

^^^ZCS^S^ Weise eine ~ v.T„sX?u« 

felt, 8 n prUCh U Und dUrCh Cm Vertahren zum Codieren eines zei.diskre.cn Audiosignals gen.aB AnspnlchTs 
che^An2 C /r d ^ Hr ,' indUn8 'j^tdicEricennmfc zugrundc! daB ein Anschlag in einen, Audiosignal „,i, einen, zei.li- 

E,n Veriahren zun, Erlasscn cines Anschlags in einen, zei.diskre.en Audiosignal u.nfaB, son.i. folgendc Schritie: 
ienSSe^ 

(b) hillcm des zciidiskreien Audiosignals in cinem akiuellcn Secmcni: 
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quenz an. Fiir den Fall cincs Vorcchos bcdcuici dies, daB cin durch die Quanlisierung eingefuhncs Rauschen. das y.u ei- 
nem Vorccho in einem bcsiinimtcn zcil lichen Absiand vor cincm Anschlag luhru bci niedrigen Frcquenzcn eher nichi cr- 
faBi wird, da das Ohr hicr cine zcitlichc Auflosung hai, die grober als der bcslimmtc zcitlichc Absiand des Vfarcchos isi. 
Anders gcariei isi der Fall, wenn cin Anschlag eher iin hohcrfrequenten Bcrcich siatifindct. Hicr isi die Zeilauflosung des 
5 nienschlichcn Ohrcs fciner, wodurch ein Vorccho in deni hesiininilcn zcil lichen Absiand horbar sein kann. da die Zeil- 
auflosung des Ohrs bereiis fcincr als der zeitlichc Absiand des Vorcchos voni Anschlag scin kann. Bs bleibi also fest/u- 
stellen, daB die Spcktraldeicktion ini Gegensaiz zur Anstiegsdciekiion die frequenzabhangige zeillichc Auflosung des 
Ohrs nachbildei, wodurch cine genauerc Anschlagserfassung als mil der Anschlagsdeicklion allein moglich isi, In man- 
chen Fallen kann selbstvcrstandlich audi die Anschlagsdeicklion alleinc bercius zufricdensicllcndc lirgebnisse liclern. 
iu An dieser Sielle sei angemerki, daB ein Anschlag cntweder auf der Grundlagc des in deni Schriu (c) durchgeluhnen 
Vergleichs oder auf der Grundlagc des in deni Schritl (d) durchgefuhrtcn Vergleichs oder auf der Grundlagc beider Ver- 
gleiche durchgefuhrt werden kann. 

Bevorzugle Austuhrungsheispiele der vorliegenden Rrfindung werden nachfolgend bezugnehniend auf die hciliegcn- 
den Zeichnungen detail lierier erlautcrt. Es zeigen: 
is Fig. 1 einen Transfonnaiionscodierer, der die Anschlagserfassung iin Zeiibereich umfaBt; 

Fig. 2 cine deiailliertere Darstellung der in Fig. 1 enthaltenen Anschlagserfassung im Zeiibereich; 

Fig. 3 einen Transfonnaiionscodierer, der ein bekannies Vcriahren zur Anschlagserfassung umfaBt: und 

Fig. 4 einen weiicren Transfonnaiionscodierer. der ein andcres bekannies Vcrfahren zur Anschlagserfassung aufweist. 

Fig. 1 zeigi einen Transfonnaiionscodierer 10 gentaB der vorliegenden Erfindung, welcher sich bis auf einen Block 
20 . Anschlagserfassung 12 nichi von ublichen in derTechnik bekannicn Transfoniiationscodierem unierscheidcl. Insbeson- 
derc sind die Funkiioncn und Verkniipfungen der Blocke Zcii/Frequenz-Transformalion 104. Quaniisicrung/Codierung 
106, Bilsiromformaiierung 108 und psychoakusiisches Modell 110 in derTechnik bekanni. Die Funkiionswciscn der cin- 
zelnen Blocke wurden bereiis in Verbindung mil den Fig. 3 und 4 beschrieben und werden daher nichi noch cinnial cx- 
plizil erklan. 

25 Wie es in Fig. 1 gezeigl isi, erhalt der Block Anschlagserfassung 12 als Eingangssignal das zeildiskrete Audiosignal 
iiber den Eingang 102 des Transformalionscodierers 10. Der Block Anschlagserfassung 12 lieferl als Ausgangssignal ein 
Signal, das anzcigt, ob cin ianges oder kurzes Fcnsicr fiir die Fcnslcrung und anschlicBcndc 2^cil/Frcqucnz-Transfonna- 
lion 104 fesizulegen isi. 

Fig. 2 zeigi eine delailliert.e Ansichi des Blocks Anschlagserfassung 12 von Fig. 1. Das zeiidiskreic Audiosignal x(k). 

30 das an deni Ausgang 102 des Trans fomialionscodierers 10 (Fig. 1) anliegl, wird in eine Segmenlierungseinrichl.ung 14 
eingespeisl. wclche am Ausgang aufeinanderfolgende Segmentc der Lange S ausgibi. Ein Segment umfaBl daher die An- 
zahl S von zcildiskreicn Abiasiwertcn des Audiosignals und wird als xs(T) bezeichnel, wobei "T" darslelll, daB es sich 
beini Signal xs(T) urn das aktuelle Segment handell, wahrend "T-l" anzeigt, daB es sich um ein dem aktuellen Segment 
zeitlich unmiltelbar vorausgehendes Segment liandell. "T-2" bedeutet analog, daB das Segment mil "T-2" das zweitletzie 

35 Segnieni vor deni aktuellen Segment isi.. 

Das Signal xs(T) wird femer in ein HochpaBfiller 16 eincrseiis sowie in eine Spektraldetektionseinrichtung 18 ande- 
rerseits eingespeisl. Das Ausgangssignal ys(T) des HochpaBflliers 16 wird wiederum zum einen in eine Ansliegsdetekli- 
onseinrichtung 20 cinerseiLs und in die Spektraldetektionseinrichtung 18 andererseils eingespeisl. Das Ausgangssignal 
der Anstiegsdciekiionseinrichiung 20 wird ebenso wie das Ausgangssignal der Spektraldetektionseinrichtung 18 einer 

40 Anschlagserfassungseinrichtung 22 zugefuhrt, welchc als ODER-Gatler ausgeluhrt sein kann, wie es durch das Symbol 
"v" symbolisch in Fig. 2 gezeigl ist. Das Ausgangssignal der Anschlagserlassungsvorrichtung 22 entspricht dem Aus- 
gangssignal der Anschlagserfassungseinrichtung 12 von Fig. 3 und wird dem Block 2^eil/Frequenz-Transfonuation 104 
sowic dem Block psychoakusiisches Modell 110 zur Verfiigung gesteUl. 

Im Nachlblgenden wird auf die Funktion und den Aufbau der einzelnen in Fig. 2 gezeigten Elemente eingegangen. 

45 Die Seqmeniierungseinrichiung 14 teilt das Eingangssignal x(k) in aufeinanderfolgende Segmente x s (T), x s (T-l), 
x s (T-2) gleicher Lange S ein. Das zeitdiskretc Audiosignal x s (T) in einem aktuellen Segment (T) umfaBt somit S zeil- 
diskrete Abtasiwcrte des zeitdiskreten Audiosignals x(k) am Eingang 102, wobei die Segmentlange S unabhangig von 
der Blocklange der Zeit/Frequenz-lransformation gewahlt werden kann. Insbesondere ist es im Gegensatz zum Stand 
der Technik nichi erlbrderiich, als Segmentlange z. B. die kurze Blocklange oder die lange Blocklange zu wahlen. Die 

50 Segmentlange S kann im Bercich von 200 bis zu 2000 Abtaslwenen liegen. wobei eine Segmentlange S von etwa 500 
Abiasiwertcn bevorzugl wird. 

Das HochpaBliher 16 crfiilll im wesentlichcn zwei Aufgaben. Die Anstiegsdelektion (Block 20) soil einen Ansiieg in 
der Hullkurvc der Signalenergie detektieren, nicht jedoch dem Aniplitudenverlauf eines tieffrequenten Signales folgen. 
Liegt nun die Schwingungsdauer eines Signalanteils in der GroBenordnung der Segmentlange oder dariiber, wiirde unter 

55 Umstiinden eine Fehldeiektion eines Anschlags erfolgen. Der Frequenzgang des HochpaBfllters 16 sollte somit vorzugs- 
weise eine geniigendc Sperrdampfung im unteren Frequenzbereich besitzen. Mil zunehmender Sequenzlange S kann zu- 
dem die Grenzfrequenz des Fillers weiter vemngen werden. Andererseils werden die Energien des hochpaBgefilterten 
Zeitsignals y s (T) weiterhin als VergleichsmaB fiir die Spekiraldetekiion (Block 18) benotigt. 

Beziiglich der Flankensteilheit und Welligkeil im Durch laBbereich kann das Filler sehr maBige Eigenschaften aufwei- 

60 sen, wobei jedoch ein lineares Phasenverhallen bevorzugt wird. Bei einer hevorzugten Segmentlange von etwa 500 Ab- 
tastwerten wird bei einem hevorzugten Ausfuhrungsbeispiel der vorliegenden Erfindung ein nicht rekursives. linearpha- 
siges FIR-Filter der Lange 7 mil den Filterkoeffizienten -0,21 36, -0,0257, -0,0265, -0,5713, -0,0265, -0,0257, -0,21 36 
verwendet werden. Die Lange des FIR-Fiiters des hevorzugten Ausfuhrungsbeispiel ist jedoch nicht auf den genannten 
Wert eingeschrankt. Fur manche Falle durften auch Filter mit geringerer Lange ausreiclien, wahrend in wieder anderen 

65 Fallen deutlich mehr Filterkoeffizienten erwOnschi sein konnten. 

Weiterhin wird bevorzugt, daB die Filterlangc klcin gcgeniiber der Segmentlange S ist. In diesem Fall kann namlich 
die Filierlaufzeit vernachlassigt werden, wodurch eine weitere Komplexitat des Transformalionscodierers 10 vennieden 
werden kann. 
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Die Segmeme werden (lurch ein nichi rekursives. digiiales Filler, wic cs bcrciis erwiihni wurdc, mil einer sehr kur/cn 
Filicrlange int Ve^lcjeh zur Segmenilangc von liclTrcqucnicn Ameilen befreil. FUrdic Ausgangsfolge des Fillers y s ( T) 
ergibi sich folgendc Gleichung: 

y > ('r) = x s (*r,)xh(ki (2) > 

h(k') siclli in Gl. (2.) die Inipulsaniwori des Fillers dar, wahrend k dcr Filicrlange enisprichi. Das Ausgarigssignal y s (T) 
cntsichi also aus der Fahung des Eingangssignals x s fD mil dcr Inipulsaniwori h(k) des HochpaB fillers 16. 

In der Anstiegsdeleklionseinrichiung 20 wird zunachst aus den gelillerlcn Eingangsdaten y s ( T) uberein Skalarprodukl 
die Energie EtfT) des gerade vorliegenden Segniemcs, das aueh als akiucllcs Segment bezcichnci wird, bereehnei. Ein io 
Vcrglcich mil der Energic E«<T-F) des dem akiucllcn Scgmeni vorausgehenden Segments sowie mil der Energic H : (T-2) 
des zweilletztcn vorausgehenden Segments Helen nun das Kritcrium tur den Energieansticg in dem zeildiskreien Audio- 
signal von eineni Segment zum nachslen. Der Ausdruck fur das ersie Kriieriuni oder kril A laulei somil folgenderniatien: 

kritA=[EKT)>k, •B 1 <T-l)]A[E 1 <T)>k 2 .E,<T-2)lAfE 1 fr)>E mill ^ (3) - is 

Emsprechend dcr ublichen Notation bedeuici "v" eine logische ODER-Verkniipfung wahrend " A " cine logischc UNO- 
VerknUpfung bezcichnci. Dcr leizie Term dcr Glcichung 3 bezcichnci cincn Vcrglcich der akiucllcn Energic des tiefpaB- 
gcfiltcrten, zeildiskreien Audiosignals in dem akiucllcn Segment mil einer Filler-Mindcsicncrgie E Jninl ,. Dieser Vcrglcich 
bewirki, daB das Kriieriuni A nur beriicksichiigl wird, wenn die akiuellc Scgmcnienergie eine Mindesienergie uber- 20 
schrciicl. Der Wen der Konsianlcn E, ni) ,H kann vorhcr feslgclcgt werden und basiert. in vercinfachier l ; orm auf dent Ein-. 
fluB der Ruhehorschwelle auf die Wahrnehmung. Die Mindesienergie fur den konsianlcn Wert li, njltK kann dahcr vorzugs- 
weisc int Bercich von -80 dBFs liegen. 

Die in dem Block 18 ausgefiihrte Spcktraldetektion basiert dagegen auf eineni Vergleich von gcfiliertcn und ungcfil- 
tertcn Scgmeniencrgien des akiucllcn Segments mil gefiJiertcn und ungefiltenen Segmcntcnergicn des vorhergchenden 25 
Segments, In Gleiehungsform ausgedruekt ergibi sich folgcnde Vorschrifl. fur das /.write Kriieriuni kriiB: 

EAT) EAT -I) 

In dieser Gleichung slelll E U (T) die Encrgie des akiucllen ungefilierten Segments dar, wahrend E r (T) die Energic des 
hochpaGgefilterten akiucllen Segments, d. h. die Encrgie des hochpaBgcfilterlen zcitdiskreten Audiosignals int akiucllcn 
Segment, darstcllt. Der letzte Term der Gleichung (4) beriicksichiigl wicder den Fall, da/3 keiue Fcnsterumsehaltung aus- 
gelosi wird, wenn die Energie des ungefiltenen zcitdiskreten Audiosignals im akiucllcn Segment unter einer Minimal- 35 
energic E minU fur ungefilterte Signale liegl, welche wiederum auf der Ruhehorschwelle basiert und ebenso wie die Filtcr- 
Mininialcnergie E tni „F einen Wert von -80 dBFs annchmen kann. 

In den Glcichungen (3) und (4) sind fcrncr vcrschiedene Konstanien k| bis k 3 genannt.. Mitlels dieser Konsianlcn wird 
festgeicgt, wicviel groBcr die Encrgie des akiucllen Segments bzw. das aktucllc Verhallnis zwischen gefilierlcr Encrgie 
und ungefillcricr Energie im Vergleich zu dem enisprechenden Weri des vorausgehenden Segmeme scin muB, damit ein 40 
Anschlag crfaBi wird, durch den eine Fensierumschaltung von langcn zu kurzen Fenslern bcwirkl wird. 

In dcr Praxis. haben sich Werte fur die Konsianlcn k| und k3 von vier als giinsiig crwiesen, wclchc damit eineni ent- 
sprechenden Pcgclunlerschied von 6dB entsprechen. Lcdiglich vorzugsweise kann die Konslantc k 2 . also der Vcr- 
gleichswert mil der vorletzten Segmentenergie, auch el was kleiner als vier gewahlt werden. urn beispielsweise einen 
Wert von drei anzunchmen. Es wir jedoch darauf hingewiesen. daB die Werte fur die Konstantcn k t bis k? abweichend 45 
von den genannten Werten eingesielli werden konnen, wenn cine fcinere bzw. grobere Anschlagscrfassung gcwunschl 
wird. Fur cine korrekie Funktionsweise der Anschlagscrfassung der vorliegenden Erfindung ist es jedoch erfordcrlich, 
daB die Werie der Konstantcn kj bis k 3 groBer als eins eingesielli werden, wie es aus den Gleichungen (3) und (4) ersichi- 
lich ist. 

An dieser Sicllc sci angemerkl, daB das Kriieriuni A (kritA) und das Kriieriuni B (kritB) lcdiglich auf deni jewcils er- 50 
stcn Term der Gleichung (3) und (4) basieren konnen. Die weiteren bciden Tcnnc in der Gleichung (3) sowic dcr weilcrc 
Tcnit in der Gleichung (4) dicnen lcdiglich einer ausgefeilleren Anschlagscrfassung, urn sicher/uslcllen. daB moglichst 
wenig AnschlagcerfaBt werden, urn moglichst selicn zu den kurzen Transfoniiaiionsfenstern umschalten zu ntiissen. 

Urn den EinlluB von Schwebungen auf die Anstiegsdctekiion zu niinimieren, ist der Vergleich der gefilterten Energien 
nichl nur mil dcr zeiliich vorhergchenden Segmenienergic E { <T-1) sondern zusatzlich mil dem vorletzten Energiewert 55 
ErtT-2) bci der gewahlien Segmentlange wiinschenswen. Hicr wird der Elickt dcr zcitlichen Nachvcrdeckung bei kurz 
aufeinandcrfolgenden Anschlagen berucksichtigt, wenn cin poieniielles Vorecho vor eineni zwciten Anschlag noch voni 
ersten Anschlag maskiert wird. Dcr zwcite Term in Gleichung (3) siclli fdr die Funktion der vorliegenden Erfindung kci- 
nen wescnt lich Term dar, sondern lcdiglich eine voneilhaftc Ausgcstaltung. Dasselbe triffi. fur die jewcils letzten Tennc 
der Glcichungen (3) und (4) zu, welche das Erfassen eines Anschlags von Mi ndest energien anhangig machen, die der 60 
RuheschwclJe nachempfunden werden. 

An dieser Stelle sei noch einma] betont, daB die Vcrwendung des HochpaBfllters lediglich bcispielhafi wenn auch be- 
vorzugt isi. Anstcllc des HochpaBfllters konnte genausogui ein Diflerenzierer cingesetzi werden, der allgemein ausge- 
drucki dazu fuhrt., daB im differenzierten Signal hohcrfrequente Signalanieile starker zuiage treien aJs im nicht-diUeren- 
ziencn Signal. Eine weiierc Alternative fur das HochpaBfiker ware ein BandpaB filler, das dazu fUhn, daB die Energie des 65 
bandpaBgcfilierten Signals in cincm bestimmten Spcku*albereich konzenuierl ist. Diese Aufzahlung der Alicrnativen fur 
das HochpaBfiker des bevorzugten Ausfuhrungsbeispiels ist jedoch nicht erschfcpfend. 'Vbraussctzung fur das Verfahren 
dcr vorliegenden Erfindung ist, daB das Signal im Zeitbereich verarbcilet, d. h. gefiltert wird, und zwar derari, daB es sich 
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hinsichilich seiner spckiralen Uigenschaftcn von dem nichi verarbeitcicn, d. h. ungelilierien Signal unterscheidci. Der 
Ausdruck "HI tern" ist^dahcr nichl derari begrenzend uul/ul'asscn. daB der Icdiglich cine ublicheFilierung /.. B. miiiclsci- 
nes ITochpasses umlaBi, sondcrn daU er auch andcrc Vcrarbcitungcn. wie z. B. DilTcrenzierungen, uml'aBt. die <ia/u fiih- 
rcn. daB sieh das verarbciieie Signal hinsichilich seiner spekiraien Eigcnschafien von deni nichl verarbeitcicn umersehei- 
5 dci. 

Weiierhin sei darauf hingewicscn. daB die Einrichtung 22 zum Erfassen cines Ansehlags nichl unbedingi als ODliR- 
Gaiier ausgcfuhri scin muB. Dieselbe kann z. 13. als UNIMiauer ausgefuhrt sein. In diesein } ; all wird nur dann ein An- 
schlag erfaBt, wenn bcidc Kriierien crfiilh sind. In dicseni Fall wiirden vorzugsweise die Konstanicn k|. k: und/odcr k\ 
und/oder die Mi ndesi energie n verklcincri werden, was dazu fuhrt, daB jedes Kriierien fur sich einiachcr erfullt wird, Urn 

id jedoch keine unnotigen odcr zu haufigen Umschaltungcn auf kurzerc Fcnstcr zu bewirken, wird dann ein Anschlag nur 
crfaBi, wenn beidc Kriierien in einem Segment gleichzeitig crfaBi werden. 

Die vorliegcndc Erfindung schaffl. soniil cine Deieklion von Anschlagen in Audiosignalcn 3us der Zciisignalfolge, 
wclche ausschlieBlich ini /eiibereich stalthndei. Die Anschlagserfassung nictetriaher gegenuberdeni Siand der Tcchnik 
den Vortcil. daB keine ITT mil einer vorbesiimmien Transformationslange benotigi wird. Das Vcrfahren der vorliegcn- 

15 den Erfindung kann soniil auBerst sparsam im Hinblick auf die verfugbarcn Rechnerrcssourcen impicmcnikn werden, da 
das verwendeteFIR-Fillercinfach zu realisieren ist. 

Paicnianspruche 

20 1. Verfahrcn zuni Erfassen eines Ansehlags in einem zeitdiskreten Audiosignal (x(k)), mil lblgenden Schriltcn: 

(a) Scgmcnlieren des zeitdiskreten Audiosignals, um auieinandcrfolgende Segmenlc gleichcr Langc mil un- 
gcfiltcrtcn zeiidiskrelen Audiosignalen (x s (T), x s (T-l), x s (T-2), . , .) zu erzeugen;. 

(b) Filicm des zeiidiskrelen Audiosignals (x s (T)) in einem akiuellen Segment; 

(c) Verglcichen der Energie (EKT)) des gefilicrten zeiidiskrelen Audiosignals (y s (T)) in dem akiuellen Seg- 
25 mem mil der Energie (E f <T-l)) des gefiliericn zeiidiskrelen Audiosignals (y„(T-l)) in einem vorhergehenden 

Segmem; und/oder 

(d) Bcsiirnnien eines akiuellen Vernal misses zwischen der Energie (Ej<T)) des gefilicrten zeiidiskrelen Audio- 
signals (y*(T)) in dem akiuellen Segment und der Energie (E U (T)) des ungcfiliertcn zeiidiskrelen Audiosignals 
(x s (T)) in dem akiuellen Segment und Verglcichen des akiuellen Verhaltnisses mil einem entsprcchenden vor- 

M) hergehenden Vcrhalinis; und 

(c) Erfassen eines Ansehlags auf der Grundlage des im Schriti (c) und/oder (d) durchgefuhrten Vergleichs. 

2. Vcrfahren nach Anspruch 1, bei dem der Schriti des Filtern ein HochpaBfiliern des zeiidiskrelen Audiosignals 
umfaBl. 

3. Vcrfahren nach Anspruch 1 oder 2. bei dem im Schriti (e) ein Anschlag erfaBt wird. wenn der in dem Schriti (c) 
35 durchgeftihrte Vcrgleich ergibt, daB die Energie (Et(T)) des gefilicrten zeitdiskreten Audiosignals (y s (T)) in dem ak- 

tuellen Segment groBer als die Energie (E t {T-l)) das gefilicrten zeitdiskreten Audiosignals (y s (T-l)) in einem vor- 
hcrgchcndcn Segment ist, 

4. Vcrfahren nach Anspruch 1 oder 2. 

bei dem in Schriti (c) lerner die Energie (Ej{T)) des gefilierten zeiidiskrelen Audiosignals (y s (T)) in dem akiuellen 
40 Segment mil. der Energie (Ef(T-2)) eines gefiliericn zeitdiskreten Audiosignals (y s (T-2)) in einem zweilletzten vor- 

hergehenden Segment verg lichen wird, und 

bei dem im Schriti (e) nur dann ein Anschlag erfaBt wird, wenn die Energie (Ef<T)) des gefilicrten zeiidiskrelen Au- 
diosignals (y s (T)) in dem akiuellen Segment, sowohl groBer als die Energie (Et<T-l)) des gefiitcnen zeiidiskrelen 
Audiosignals (y,(T-l)) in dem vorhergehenden Segment als auch groBer als die Energie (EtfT-2)) des zeiidiskrelen 
45 Audiosignals (y s (T-2)) in dem zweilletzten vorhergehenden Segment ist. 

5. Vcrfahren nach Anspruch 1 oder 2, 

bei dem im Schriti (c) fcrner die Energie des gefilierten zeiidiskrelen Audiosignals im akiuellen Segment mil einem 
vorbesiimmien Filicrminimalweri (E in j nF ), der auf der psychoakustischen Ruhehorschwelle basien, verglichen wird, 
und 

50 bei dem im Schriti (c) nur dann ein Anschlag erfaBt wird, wenn die Energie des gefilierten zeitdiskreten Audiosi- 

gnals in dem akiuellen Segment sowohl groBer als die Energie des gefilierten zeitdiskreten Audiosignals in dem vor- 
hergehenden Segmem als auch groBer als die Energie des gefilierten zeitdiskreten Audiosignals in dem zweilletzten 
vorhergehenden Segment als auch groBer als der vorbestimmte Filter-Mini malwerl (E^inF.) ist. 

6. Verfahren nach einem der vorhergehenden Ansprtiche, bei dem die Energien, die jeweils mil der Energie des ge- 
55 filierten zeiidiskrelen Audiosignals im akiuellen Segment verglichen werden, mil Faktoren (k|, k 2 ) gewichiei wer- 
den, die groBer als cins sind. 

7. Verfahren nach einem der vorhergehenden Ansprtiche, bei dem im Schriti (e) ein Anschlag erfaBt wird, wenn der 
in dem Schriii (d) durchgefuhrte Vcrgleich ergibt, daB das aktuelle Verhaltnis groBer als das vorhergehendeentspre- 
chende Vcrhalinis ist. 

60 8. Vcrfahren nach einem der Anspruchc 1 bis 6, 

bei dem in dem Schriti (e) ferner die Energie (E,,(T)) des ungefiltcrten zeitdiskreten Audiosignals (x R (T)) in dem ak- 
iuellen Segmenl mil einem vorbestinimten Minimalwert (Emi n uX der auf der psychoakustischen Ruhehorschwelle 
basien, verglichen wird, und 

bei dem im Schriti (e) nur dann ein Anschlag erfaBt wird, wenn sowohl das aktuelle Verhaltnis groBer als das ent- 
65 sprechende vorherige Verhaltnis ist, als auch die Energie (EJT)) des ungefiltenen zeitdiskreten Audiosignals 

(x s (T)) in dem akiuellen Segmenl groBer als der vorbestimmte Minimalwert (Eininu) ist 

9. Verfahren nach Anspruch 7 oder 8, bei dem das vorhergehende Verhaltnis mil einem vorbesiimmten Faktor (k 3 ), 
der groBer als eins ist, gewichtet wird. 
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10. Vcrfuhrcn nach cincni dor vorhcrgchcndcn Anspruchc. bci dem das IIochpuBfilicrn miiicls eines HR-Filiers 
durchgcliihri wipi. 

1 1 . Vorrichiung (12) /.um Erlasscn cincs Anschlags in cincni zciidiskrcicn Audiosignal (x(k)) mil folgenden Merk- 
inalcn: 

(h) cincr Einrichiung (14) zum Scgnicnticren dcs zciidiskrcicn Audiosignals (x(k)), nut mifcinandcrfolgendc .s 
Scgnicnic mil gleichcr Langc mil ungclilicrien zeiidiskreien Audiosignalcn (x s (T). x s fT-l I x s (T-2'), . . .) zu er- 
zeugen; 

(b) cincni Filler (16) zum Filicrn dcs /.ciidiskrctcn Audiosignals (x s (T)) in cincni akiucllcn Scgnicni; 

(c) cincr Ansliegserfassungseinrichiung (20) zum Vcrglcichcn der Energie (E|<T)) dcs gclilicricn zciidiskrcicn 
Audiosignals (y s (T)) in deni akiucllcn Scgnicni mil dcr Energie (EKT-1 )) dcs gclilicricn zciidiskrcicn Audiosi- io 
gnals (y s (T- 1 )) in cincni vorhcrgchcndcn Segment; und/odcr 

(d) ciner Spekiralcrfassungscinrichiung (18) zum Beslimmen eincs akiucllcn Vcrhalinisscs zwischen dcr 
Energie (Hff P)) dcs ungehlicrien zeiidiskreien Audiosignals (y s (T)) in dem akiuellcn Scgnicni und dcr Hnergic 
(E„(T)) des gefiiierien zciidiskrcicn Audiosignals (x s (T)) in dem akiuellcn Scgnicni und Vcrglcichcn dcs akiu- 
ellcn Vcrhalinisscs mil einem vorhcrgchcndcn entsprechenden Verhaitnis; und is 
(c) einer Einrichtung (22) zu Erlasscn cincs Anschlags auf dcr Grundlage des durch die Ansiicgscrfassungs- 
cinrichiung (20) und/oder des durch die Spekiralerfassungseinrichiung (18) durchgeluhrien Vergleichs. 

12. Vorrichiung (12) nach Anspruch 11. bci dcm das Filler (16) ein HochpaB-FIR-Filicr mil lincarcm Phascnver- 
halicn ist. 

13. Vorrichiung nach Anspruch 1 1 Oder 12, bei dem die Einrichiung (22) zum Erlasscn eincs Anschlags als UND- 20 
oder als ODER-Galler ausgcluhrt isi. wobei in Eingange dcs ODER-Gatiers bzw. UNIX Jailers Ausgangssignalc 
(krilA, krilB) dcr Ansliegserrassungscinrichiung (20) und der Spekiralerfassungseinrichiung (18) cingcspcisl wcr- 
den. 

14. Vorrichiung (10) zum Codiercn cines zeiidiskreien Audiosignals, mil folgenden Merkmalcn: 

(a) einer Ans,chlagserfassungseinrichiung (12) zum Erlasscn eines Anschlags in dcm zeiidiskreien Audiosi- 25 
gnal nach einem der Anspruchc 10 bis 12; 

(b) cincr Einrichtung (104) zum Fcnsicrn dcs zciidiskrcicn Audiosignals, urn Blockc von zciidiskrcicn Audio- 
signalcn zu erzeugen, die auf die Anschlagscrfassungseinrichiung (12) anspricht, urn ein kurzes Fensicr zum 
Fcnsicrn zu verwenden, wenn die AnschlagserJassungseinrichlung (12) cincn Anschlag erfaKl; 

(c) cincr Einrichiung (104) zum Zcil/Frequenz-Transformicren der Blockc dcs zciidiskrcicn Audiosignals, urn 30 
Blockc von Spektralkomponenicn zu erzeugen; und 

(d) einer Einrichiung (106) zum Quaniisieren und Codiercn der Blocke von Spektralkomponcnten. 

15. Vcrfahren zum Codiercn eines zeiidiskreien Audiosignals mil folgenden Schriucn: 

(a) Erfasseu eincs Anschlags nach einem der Anspruchc 1 bis 9; 

(b) Fcnstcrn des zeiidiskreien Audiosignals mil einem kur/.en Fensicr, wenn ein Anschlag ertaBi wurdc, und 35 
mil einem langen Feslcr, wenn kcin Anschlag erfafit wurdc, um Blockc von zeiidiskreien Audiosignalen zu er- 
zeugen; 

(c) Transformicren dcr Blockc dcs zeiidiskreien Audiosignals von dem Zcil- in den Frcqucnzbereich, um 
Blocke mil Speklralkomponcnien zu erzeugen; und 

(d) Quaniisieren und Codiercn dcr Blockc von Spektralkomponenlen, um ein codienes Audiosignal zu erhal- 40 
ten. 



Hicrzu 2 Seiie(n) Zcichnungen 



45 



50 



55 



60 



65 



7 



Dk I o r\<-v^ i f-v 



\ 



ZEICHNUNGEN SE1TE 1 



Nummer: 
Int. Cl. b : 

Veroffentlic hung stag: 



DE197 36 669 C1 
G 10 L 5/00 

22. Oktober 1998 



10 




104 



Zeit/Frequenz- 
Transformation 
(lang/kurz) 



106 



Quantisierung/ 
Codierung 



f — ► 



Ausschlags- 
erfassung 



Psycho- 

akustisches 

Model! 



108 



Bitstronr-- 
formatierung 



110 



12 



FIG.1 



12 




102 



14 



16 



20 



Segmentierung 



X S (T) 



► 



HochpaS- 
Filter 



Y S (T) 



* ► 



Anstiegs- 
Detektion 



kritA 



22 



Y S (T) 



X S (T) 



Spektral- 
Detektion 



kritB 



18 



FIG.2 



802 143/272 



BNSDOCID: <DF i<J73««fiar:i I s 



ZEICHNUNGEN SEITE 2 



Nummer: DE197 36 669C1 

Int. CI. 6 : G 10 L 5/00 

Veroffentlichungstag: 22. Oktober 1998 



102 



104 



r 



100 



106 



108 



Zelt/Frequenz- 
Transformation 
(lang/kurz) 



Quantisierung/ 
Codierung 



Bitstrom- 
formatierung 



Psycho- 

akustisches 

Modell 



Bitbedarfs- 
SchStzung 



110 



112 



FIG.3 (Stand der Technik) 



102 



104 



106 



108 



-# ► 



Zeit/Frequenz- 
Transformation 
(lang/kurz) 



150 



j 



FFT-Transformation 
und Detektion 
aus dem Spektrum 



Quantisieaing/ 
Codierung 


i 


/ 


Psycho 




akustisches 


Model! 





Bitstrom- 
formatierung 



110 



152 



FIG.4 (Stand der Technik) 



802 143/272 



